java - 计算文本之间相似度的算法

ruby - 在 Ruby 中解析结构化文本

SO上有几个关于在Ruby中解析结构化文本的问题，但没有一个适用于我的情况。我是RubyWhoislibrary的作者.该库包含多个解析器，用于解析WHOIS响应并从内容中提取属性。到目前为止，我使用了两种方法:基本解析器的正则表达式(例如whois.aero)StringScanner对于高级解析器(例如whois.nic.it)正则表达式效率不高，因为如果我需要提取15个属性，我需要至少扫描同一个响应15次。StringScanner是一个不错的库，但创建一个高效的扫描器并不是那么简单。我想知道您是否建议使用其他一些Ruby工具来实现WHOIS记录解析器。我正在阅读有关Treeto

ruby-on-rails - 在 ruby 进程之间处理大数据对象

如果使用Marshal.dump写入文件，我有一个Ruby散列达到大约10兆字节。gzip压缩后约为500KB。在ruby中迭代和改变这个散列是非常快的(几分之一毫秒)。即使复制它也非常快。问题是我需要在RubyonRails进程之间共享此散列中的数据。为了使用Rails缓存(file_store或memcached)执行此操作，我需要先Marshal.dump文件，但这会在序列化文件时产生1000毫秒的延迟，在序列化文件时产生400毫秒的延迟。理想情况下，我希望能够在100毫秒内从每个进程保存和加载此哈希。一个想法是生成一个新的Ruby进程来保存这个散列，该散列为其他进程提供AP

大数 ruby user interests section ruby-on-rails c performance serialization

ruby - 趋势算法

我正在开发一个类似微论坛的项目，其中一个特殊用户发布一条快速(接近推文大小)的主题消息，订阅者可以用他们自己的类似大小的消息来响应。直截了当，没有任何形式的“挖掘”或投票，只是每个主题消息的响应按时间顺序排列。但预计会有很高的流量。我们想根据它们引起的响应嗡嗡声来标记主题消息，使用0到10的等级。在谷歌上搜索了一段时间的趋势算法和开源社区应用示例，到目前为止已经收集到两个有趣的引用资料，但我还没有完全理解它们:Understandingalgorithmsformeasuringtrends，关于使用基线趋势算法比较维基百科页面浏览量的讨论，在SO上。TheBritneySpearsP

ruby 趋势 section 的 stackoverflow algorithm statistics

ruby - 如何将 Vim 中的 "expand"文本转换成一种易于阅读的方式？

我经常使用嵌套数据结构，很多时候我必须从控制台手动分析它们。问题是它们全部打印在一行中。是否有一种简单的方法可以根据{,[,],}和逗号重新构造数据结构的显示，使其看起来像Ruby的pretty_print输出？最佳答案 :%s/$[{,]$/\1\r/gggVG=:setft=ruby呜呜呜关于ruby-如何将Vim中的"expand"文本转换成一种易于阅读的方式？，我们在StackOverflow上找到一个类似的问题： https://stacko

易于 amp section code stackoverflow ruby vim text

ruby - Ruby 中有条件的内联和有条件的 block 之间的区别

今天我遇到了Ruby的内联if和阻塞if这种奇怪的行为2.0.0-p247:001>inline_if='valuewillnotsetbutnoerror'ifinline_if=>nil2.0.0-p247:002>ifblock_if2.0.0-p247:003?>block_if='forgetaboutsettingvalue,Iwillraiseanerror'2.0.0-p247:004?>endNameError:undefinedlocalvariableormethod`block_if'formain:Objectfrom(irb):2from/Users/myu

内联 block section if ruby conditional-statements

ruby - 潘戈+开罗；是否有处理文本中 <img> 样式标签的现有方法？

Pango语法支持一些纯文本标记。据我所知，这也没有扩展到嵌入图像。环顾四周，我找不到太多现有实现方式，但我之前没有做过pango+cairo工作，所以我可能会错过明显的社区。据我所知，一个合理的方法是只分析一个字符串，提取任何标签，创建cairo图像，然后相应地修改它们周围的pango布局。这看起来也像是以前有人做过的事情。我专门寻找这些问题的答案:pango+cairo是否已经解决了这个问题，我只是误读了文档？以前有没有做过这样的事情，引用在哪里？这是一种合理的方法，还是我应该尝试其他方法，什么？(还要注意我使用的是ruby，所以这可能会影响我的选择)

开罗 amp cairo pango attr ruby

ruby-on-rails - ruby/rails array 两个索引之间的所有元素

我有一个这样的数组:[7,8,9,10,11,12,1,2,3,4,5,6]返回数组中从位置6到位置0的每个项目的最简单方法是什么，结果数组如下所示:[1,2,3,4,5,6,7]数组中的这个位置可以是动态的，例如传入4和9应该返回[11,12,1,2,3,4]我想知道是否有一种方法可以在Railsapi中实现这一点。提前致谢编辑假设没有负数，那么array[2..-2]将不起作用。Array#splice几乎适用于此，但如果第二个位置小于第一个，则返回nil。最佳答案 deffooa,min,maxa.rotate(min).f

rails ruby code section stackoverflow ruby-on-rails arrays

ruby - 在Ruby中计算持续时间与毫秒之间的差异

TL;DR:IneedtogetthedifferencebetweenHH:MM:SS.msandHH:MM:SS.msasHH:MM:SS:ms我需要什么:这是一个棘手的问题。我正在尝试计算两个时间戳之间的差异，如下所示:In:00:00:10.520Out:00:00:23.720应该交付:Diff:00:00:13.200我想我应该将时间解析为实际的Time对象并在那里使用差异。这在前一种情况下效果很好，并返回00:0:13.200。什么不起作用:然而，对于某些人来说，这并不能正常工作，因为Ruby使用usec而不是msec:In:00:2:22.760Out:00:2:31.

中计毫秒 code time 00 ruby datetime-conversion

Ruby - 不支持的密码算法 (AES-256-GCM)

我收到错误:unsupportedcipheralgorithm(AES-256-GCM)(RuntimeError)但我似乎具备所有要求:ruby版本:$ruby--versionruby2.1.2p95OpenSSL会列出gcm:$opensslenc-help2>&1|grepgcm-aes-128-ecb-aes-128-gcm-aes-128-ofb-aes-192-ecb-aes-192-gcm-aes-192-ofb-aes-256-ecb-aes-256-gcm-aes-256-ofbRuby解释器:$irb2.1.2:001>require'openssl';puts

不支 Ruby code blockquote OpenSSL security encryption aes-gcm

ruby - 按相似性对字符串进行分组

我有一个字符串数组，数量不多(可能几百个)但通常很长(几百个字符)。这些字符串通常是无意义的，并且彼此不同。但是在一组这样的字符串中，可能300个中有5个具有很大的相似性。事实上，它们是相同的字符串，不同的是格式、标点符号和一些单词..我怎样才能算出那组字符串？顺便说一句，我正在用ruby编写，但如果没有别的，伪代码算法就可以了。谢谢最佳答案假设您不担心每个单词的拼写错误或其他错误，您可以执行以下操作:构建一个倒排索引，它基本上是一个以单词为键的散列，指向包含该单词的字符串的指针列表(如何处理重复出现由您决定)。要确定与给定

ruby 按 section 单词字符 algorithm string grouping similarity

5 6 789 10 11